Caseoppgave

Sverre Langaas

Setting

  • Stratifisert utvalg av kredittdata fra tyske banker fra 1973-1975
  • Jeg skal predikere om de misligholder forpliktelse, altså om credit_risk == "bad"

Utforskende dataanalyse

  • Begynner med å forstå hvor data kommer fra og hva kolonner representer
    • Hva er populasjonen det er trukket fra og er det et representativt utvalg?
    • Er det problemer med datakvalitet eller manglende verdier?
  • Kan også få idéer til transformasjoner av data eller beriking med andre datakilder
  • Forretningskunnskap

Utforskende dataanalyse (forts.)

  • Kjennetegnes av rask iterasjon og uformell hypotesetesting
  • Fordel med interaktive verktøy slik at man raskt kan få ulike visninger av data.

Modell

  • Jeg skal predikere om credit_rating == bad gitt informasjon om de andre variablene
  • Jeg vil estimere \(P(credit\_rating = bad | \mathbf{x})\)
  • Det finnes mange ulike statistiske metoder med ulike fordeler og ulemper
  • Jeg har valgt logistisk regresjon som en baseline modell.

Evaluering

  • I binær klassifikasjon kan vi gjøre to typer feil
    • Predikere good dersom bad
    • Predikere bad dersom good
  • Det kan være ulik kostnad ved ulik type feil
  • Det kan også være heterogene kostnader
  • Man må se evaluering i sammenheng med overordnet optimeringsproblem
          Truth
Prediction bad good
      bad  126   54
      good  99  471
# A tibble: 3 × 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.796
2 sens     binary         0.56 
3 spec     binary         0.897

          Truth
Prediction bad good
      bad   36   25
      good  39  150
# A tibble: 3 × 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.744
2 sens     binary         0.48 
3 spec     binary         0.857

Videreutvikling av modell

  • Strukturere prosjektet
  • Bevare utforskende dataanlyse som dokumentasjon
  • Skille mellom utforskende kode og produksjonskode
  • Skrive god og selvdokumenterende kode
    • Supplere med kommentarer og docstrings
  • Reproduserbart miljø
  • Versjonskontroll